Pondération des concepts en recherche d'information sémantique
نویسندگان
چکیده
RÉSUMÉ. L’objectif principal de la pondération en recherche d’information (RI) est d’assigner aux termes d’index des poids sensés traduire leur importance dans les documents où ils apparaissent. En RI sémantique, les termes d’index représentent des concepts. L’importance d’un concept est généralement mesurée soit à travers sa fréquence d’occurrence, soit à travers sa centralité, définie comme son degré de relation avec les autres concepts du document. Dans ce papier, nous proposons et évaluons une approche de pondération des concepts basée sur une nouvelle définition de la centralité. La centralité d’un concept est une mesure combinée de sa fréquence relative et de sa proximité sémantique avec les autres concepts du document. Nous montrons en particulier que notre approche offre de meilleurs résultats que les approches de pondération classiques sur des concepts.
منابع مشابه
Modèle unifié pour la recherche d'information sémantique
Résumé : Un modèle documentaire permet de définir les unités d’indexation (mots, termes, etc.) et de les relier aux documents dans lesquels elles apparaissent. Il permet également de définir les liens entre documents ou portions de documents (ex. citation). Les modèles documentaires sont généralement exploités en recherche d’information pour la représentation des documents et des requêtes et il...
متن کاملUn système d'aide à la recherche d'information en ligne basé sur les ontologies (SA-RI-Onto)
RÉSUMÉ. La croissance très importante des informations disponibles sur Internet nécessite des outils de recherche de plus en plus performants permettant de discerner efficacement les informations intéressantes parmi des centaines voire des milliers de documents. Seulement, la qualité des résultats fournis par les moteurs de recherche traditionnels n'est pas toujours pertinente surtout quand il ...
متن کاملDocCat: un composant logiciel de catégorisation de documents et de marquage sémantique XML
Résumé : Cet article présente DocCat un composant logiciel de catégorisation de documents. Cet outil permet de générer des balises sémantiques et de les stocker dans une base de données au format XML. DocCat intègre une méthode d’apprentissage supervisée pour classer des documents texte dans des catégories prédéfinies. Les catégories ainsi induites permettent le balisage du document. L’intérêt ...
متن کاملSémantique et contextes conceptuels pour la recherche d'information
Résumé. Cet article propose une méthodologie de recherche d’information qui utilise l’analyse conceptuelle conjointement avec la sémantique dans le but de fournir des réponses contextuelles à des requêtes sur le web. Le contexte conceptuel défini dans cet article peut être global – c'est-à-dire stable – ou instantané – c'est-à-dire borné par le contexte global. Notre méthodologie consiste en un...
متن کاملDémarches sémantiques de recherche d'information sur le Web
Résumé : L’examen de différents projets de recherche visant à supporter les activités des membres d’une communauté à l’aide d’une mémoire collective met en évidence l’intérêt de capitaliser les requêtes formulées à la mémoire et plus généralement les savoir-faire experts d’une communauté en matière de recherche d’information. L’enjeu est de donner les moyens aux membres d’une communauté de réut...
متن کامل